Meta rivoluziona la traduzione AI con Seamless Communication

Meta ha annunciato un importante aggiornamento al suo modello di traduzione AI multimodale, SeamlessM4T. La nuova versione, SeamlessM4T v2, include due nuove funzionalità che mirano a rendere le traduzioni conversazionali più spontanee ed espressive:

Meta rivoluziona la traduzione AI con Seamless Communication

Ad agosto, Meta ha presentato il suo modello di traduzione AI multimodale, SeamlessM4T, che supporta quasi 100 lingue per il testo e 36 per il parlato. Con un’architettura “v2” aggiornata, il gigante della tecnologia sta ora espandendo questo strumento per rendere le traduzioni conversazionali più spontanee ed espressive: quest’ultima è una chiave mancante per un’autentica conversazione attraverso le lingue.

La prima delle due nuove funzionalità è “SeamlessExpressive” che, come si può desumere dal nome, trasferisce le tue espressioni nel tuo discorso tradotto. Questi includono il tono, il volume, il tono emotivo (eccitazione, tristezza o sussurri), la velocità del discorso e le pause. Considerando che fino a ora i discorsi tradotti sono sempre sembrati robotici, questa svolta è potenzialmente un punto di svolta, sia nella nostra vita quotidiana che nella produzione di contenuti. 

Le lingue supportate includono inglese, spagnolo, tedesco, francese, italiano e cinese, anche se al momento della stesura di questo articolo nella pagina demo mancano l’italiano e il cinese. La seconda funzionalità è “SeamlessStreaming“, che avvia la traduzione di un discorso mentre l’oratore sta ancora parlando, consentendo così agli altri di ascoltare la traduzione più velocemente. 

C’è ancora una breve latenza di poco meno di due secondi, ma almeno non dovrai aspettare che qualcuno finisca una frase. La traduzione in tempo reale è una sfida complessa, soprattutto quando si tratta di lingue che hanno strutture grammaticali e sintattiche diverse. Meta ha affrontato questa sfida sviluppando un algoritmo dedicato allo studio dell’input audio parziale. Questo algoritmo è in grado di determinare se c’è abbastanza contesto per iniziare a generare un output tradotto o se è necessario continuare ad ascoltare.

Non è possibile prevedere quando il pubblico potrà usufruire di tali nuove funzionalità, ma è plausibile ipotizzare che Meta le integrerà nei propri occhiali intelligenti in futuro, conferendogli una praticità ulteriore rispetto al presente.

Continua a leggere su Fidelity News